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摘要 : 【 目的 ] 在 论文 和 专利 中 识别 并 发 现 待 选 新 兴 技 术 。[ 方法 ] 采用 LDA 模型 寻找 技术 主题 , 使 用 新 兴 技 术 
相似 度 识 别 待 选 新 兴 技术 。 利 用 电动 汽车 数据 进行 实验 分 析 。[ 结果 】 实 验 结果 表明 ,该 方法 区 别 于 以 往 的 新 兴 
技术 识别 方法 ， 自 动 识别 出 电动 汽车 领域 的 25 个 新 兴 技 术 。[ 局 限 ] 没有 进行 专家 打分 实验 , 模型 分 析 结果 未 与 
人 工 结果 进行 对 比 。[ 结论 ] 新 兴 技 术 发 现 模型 可 高 效 发 现 新 兴 技术 ， 有 效 减少 专家 阅读 文献 的 数量 。 
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美国 宾夕法尼亚 大 学 沃 顿 商学 院 的 Day 等 中 的 研 
究 认 为 ,新兴 技术 是 建立 在 科学 基础 上 的 革新 , 它们 
可 能 创立 一 个 新 行业 或 改变 某 个 老 行业 。 它 们 可 以 是 
产生 于 突破 性 创新 的 间断 性 技术 ,或 是 通过 集中 融合 
多 个 过 去 的 独立 研究 成 果 而 形成 的 更 具 创新 性 的 技 
术 。 赵 振 元 等 中 认为 新 兴 技 术 是 指 那些 新 近 的 , 其 至 正 
在 发 展 的 ,对 经 济 机 构 产 生 重 大 影响 的 高 技术 。 随 着 
以 “大 众 创 业 , 万 众 创新 ”为 目标 的 创新 时 代 的 来 临 ， 
人 们 越 来 越 重视 创新 技术 的 发 展 , 创新 不 仅 要 跟踪 技 
术 变 化 , 更 要 捕捉 发 展 动态 和 抓 住 技术 机 会 而 技术 机 
会 分 析 中 重要 的 工作 之 一 就 是 找到 新 兴 技 术 ， 因 此 如 
何 准确 识别 新 兴 技 术 ,， 进而 对 新 兴 技 术 进 行 评价 和 选 
择 ,实现 新 兴 技 术 的 产业 化 具有 非常 重要 的 现实 意义 。 


2 研究 现状 


现 有 新 兴 技术 发 现 方法 主要 包括 人 工 方法 BC4 、 基 
于 属性 综合 评价 的 方法 说、 基于 文本 挖掘 方法 “"、 基 
于 判定 规则 王 "等 方法 进行 新 兴 术语 识别 。 

BEC 利用 专家 打分 法 对 新 兴 技 术 进行 识别 。 
谈 妆 等 所 根据 新 兴 技术 的 不 确定 性 与 风险 ,提出 将 技 


术 路 线 图 与 实物 期 权 方法 相 结 合 的 新 兴 技 术 识别 和 选 
择 框 架 模型 。 上 述 方法 基于 非 系 统 过 程 ， 并 依靠 专家 
的 主观 意见 ， 专 家 意见 很 容易 受到 专家 水 平和 主观 倾 
向 的 影响 , 不 同 的 专家 给 出 的 评分 也 不 相同 , 使 评价 
结果 的 适用 性 大 打折 扣 。 

黄 鲁 成 等 外 在 属性 集 和 属性 测度 理论 基础 上 提出 
属性 综合 评价 和 决策 系统 ,对 一 组 技术 进行 判别 ， 进 
而 对 其 进行 分 类 ， 以 求 找 出 其 中 的 新 兴 技 术 , 然而 在 
部 分 指标 的 打分 中 , 依然 使 用 的 是 专家 打分 , 然后 利 
H APP 得 出 技术 权重 ,如 果 待 识别 的 技术 过 多 就 会 造 
成 识别 速度 过 慢 , 同时 专家 主观 性 较 强 , 评价 结果 依 
然 无 法 被 广泛 使 用 。 

Kostoff 等 外 使 用 文本 挖掘 的 方法 对 断裂 性 技术 进 
行 识别 。 王 凌 燕 等 中 利用 专利 文献 提出 识别 新 兴 技 术 
主题 的 初步 技术 框架 , 并 以 工业 生物 技术 领域 的 专利 
文献 为 数据 来 源 , 采用 文本 聚 类 技术 、 共 词 战略 坐标 
分 析 、 共 词 网 络 分 析 、 专 利 分 析 等 方法 对 该 技术 领域 
的 新 兴 技 术 主 题 进行 实证 分 析 。 在 海量 文本 中 找到 待 
评价 技术 的 文本 挖掘 方法 主要 依靠 词 聚 类 ,结果 形 成 
技术 方向 ， 而 不 是 技术 主题 ， 同 时 技术 方向 中 技术 术 
语 是 排他 的 ， 而 不 是 兼容 的 ,割裂 了 技术 之 间 的 关系 
因此 文本 挖掘 的 方法 也 不 能 较 好 地 发 现 新 兴 技 术 , 其 
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主要 方法 也 是 对 指定 技术 进行 是 否 为 新 兴 技 术 的 判 
定 。 李 和 蔷 等 四 采用 基于 专利 引用 耦合 聚 类 的 新 兴 技 术 
识别 模型 及 其 相关 指标 体系 , 并 以 美国 专利 商标 局 ( 简 
称 美 专 局 ) 授 权 的 专利 数据 库 为 数据 源 , 对 纳米 技术 领 
域 展 开 了 实证 分 析 。 与 文献 [7] 的 结果 一 致 ,研究 的 是 
技术 方向 不 是 技术 主题 , 同时 聚 类 的 主题 过 于 粗糙 ， 
技术 识别 较 少 。 

Kim 等 外 提出 基于 判定 规则 的 方法 , 采用 先 验 知 
识 进行 验证 ,提出 判定 规则 ， 最 后 进行 检验 分 析 。 在 笔 
者 的 前 期 研究 0 中 , 也 采用 了 基于 判定 规则 的 方法 ， 
分 别 是 顶尖 热点 技术 、 萌 芽 新 兴 技 术 、 趋 稳 新 兴 技 术 、 
成 长 新 兴 技 术 和 衍生 新 兴 技 术 5 种 新 兴 技 术 , 每 种 新 
兴 技 术 给 出 了 计算 指标 , 然而 这 种 基于 单一 指标 判定 
出 技术 术语 的 方法 仍然 是 基于 规则 的 , 是 一 种 经 过 试 
错 产 生 的 办 法 , 无 法 进一步 改进 , 不 能 够 利用 既 有 数 
据 进 行 有 效 学 习 。 

在 分 析 现 有 研究 的 过 程 中 发 现 , 专家 评价 在 得 到 
足够 的 支持 信息 后 识别 新 兴 技 术 的 方法 已 经 成 熟 , 其 
他 研究 的 主要 目的 在 于 提供 各 种 方法 支持 , 减少 专家 
的 工作 强度 ,提高 信息 支持 。 因 此 笔者 认为 发 现 新 兴 
技术 的 关键 问题 如 下 : 

(1) 如 何 从 文献 中 直接 找到 所 有 可 能 的 新 兴 技 术 ; 

(2) 减少 待 分 析 新 兴 技 术 的 数量 ,提高 专家 工作 
效率 ; 

(3) 新 兴 技 术 的 专家 判定 方法 如 何 得 到 足够 的 信 
息 支持 , 同时 减少 专家 阅读 文献 的 数量 和 减少 专家 的 
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主观 性 。 

针对 以 上 问题 , 本 文采 用 主题 模型 ， 从 海量 的 科 
技 文本 (论文 和 专利 ) 中 找到 待 评价 的 新 兴 技 术 主 题 ; 
在 数据 整合 的 基础 上 , 使 用 新 兴 技 术 相 似 度 算 法 ， 对 
待 评价 新 兴 技 术 排 序 ， 并 根据 阔 值 进行 新 兴 技 术 截 取 ， 
进而 自动 找到 候选 新 兴 技 术 , 降低 待 分 析 新 兴 技 术 的 
数量 ; 标注 新 兴 技 术 , 并 提供 新 兴 技 术 的 核心 文献 ， 
为 专家 判定 提供 信息 支持 。 


3 ”研究 思路 与 框架 


新 兴 技 术 识 别 的 重要 工作 是 在 海量 文本 中 自动 发 
现 新 兴 技 术 候 选集 ， 并 准确 识别 候选 集 ， 找 到 最 可 能 
是 新 兴 技 术 的 技术 主题 。 因 此 新 兴 技 术 发 现 模型 包括 
论文 与 专利 共同 研究 技术 主题 模型 、 新 兴 技 术 识 别 模 
型 和 新 兴 技 术 选 择 和 标注 三 个 组 成 部 分 : 共同 研究 技 
术 主 题 模型 首先 对 论文 和 专利 进行 整合 , 在 整合 数据 
的 基础 上 使 用 主题 模型 发 现 领域 所 有 相关 的 技术 主 
i, 然后 采用 二 元 判定 找到 文献 与 主题 的 关系 , 形成 
技术 主题 集合 ; 新 兴 技 术 识 别 模型 利用 现 有 新 兴 技 术 
数据 , 根据 特征 发 现 新 兴 技术 发 展 的 技术 趋势 和 技术 
内 涵 , 然后 根据 技术 主题 和 新 兴 技 术 的 相似 关系 进行 
相似 度 计算 , 给 出 相似 度 排序 ; 新 兴 技 术 选 择 和 标注 
主要 根据 相似 度 排序 缩小 新 兴 技 术 集 合 ,然后 在 小 集 
合 中 进行 新 兴 技 术 标 注 , 最 后 将 待 判定 集合 交 予 专家 
做 最 后 判定 ,如果 是 新 兴 技 术 便 入 库 , 否则 抛弃 。 新 兴 
技术 发 现 模 型 框架 如 图 1 所 示 : 
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图 1 新 兴 技 术 发 现 模 型 框架 
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4 实验 过 程 
4.1 数据 收集 与 整理 
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科技 创新 技术 , 识别 本 领域 真实 的 新 兴 技 术 。 
论文 和 专利 整合 首先 是 数据 收集 整理 , 要 对 中 国 


新 兴 技 术 发 现 模型 中 论文 与 专利 整合 的 目的 在 于 
论文 是 基础 研究 成 果 的 表现 形式 ， 专利 文献 是 技术 创 
新 成 果 的 表现 形式 ， 找 到 研究 成 果 与 技术 创新 成 果 中 
全 部 的 技术 主题 ,才能 够 发 现 现 有 新 兴 技 术 中 全 部 的 
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专利 著录 项 目 和 中 国 论文 期 刊 的 摘要 等 数据 进行 整 
理 。 之 后 整合 论文 (专利 ) 标 题 、 论 文 (专利 摘要、 论文 
发 表 年 份 (专利 公开 年 份 )、 论文 机 构 ( 专 利 申请 人 )、 论 
文 作者 (专利 发 明 人 ) 等 信息 ,整合 的 数据 如 图 2 Bron: 


图 2 论文 与 专利 整合 结果 


为 验证 基于 论文 与 专利 整合 的 新 兴 技 术 发 现 模型 
的 可 行 性 ,选择 电动 汽车 的 论文 和 专利 数据 进行 实例 
研究 ,从 万 方 数据 库 和 中 国 国家 知识 产权 局 专利 检索 
系统 CPRS 中 获取 2009 年 -2013 年 数据 , 包括 中 国电 
动 汽车 论文 31 258 篇 , 中 国电 动 汽车 专利 104 291 篇 ， 
共计 135 549 条 数据 , 用 以 构建 电动 汽车 论文 和 专利 
整合 数据 库 。 将 提取 出 的 论文 和 专利 的 关键 词 加 入 到 
分 词 词 库 中 ,对 论文 和 专利 进行 分 词 ， 去 除 噪音 词 后 ， 
共 得 到 243 756 个 关键 词 。 

42 ”技术 主题 模型 

技术 主题 是 由 具有 强 文本 表示 功能 的 特征 关键 词 
组 成 ， 而 强 文本 表示 功能 是 指 在 文本 表示 时 ， 能 将 文 
本 的 内 容 及 特征 (例如 领域 类 别 、 主 题 思想 、 中 心意 义 
等 鲜明 地 表示 出 来 站, 主题 模型 是 统计 学 中 用 以 识别 
文字 中 隐 舍 主题 的 一 种 建 模 方法 中， 因此 本 文采 用 
LDA(Latent Dirichlet Allocatiom) 主题 模型 作为 新 兴 技 
术 主 题 的 计算 模型 。 笔 者 采用 Gibbs 采样 方法 进行 
LDA 模型 建 模 ， 得 到 文档 -主题 矩阵 和 主题 - 词 矩 阵 ， 
其 中 主题 - 词 概率 矩阵 即 为 本 文 的 技术 主题 , 文档 - 主 
题 矩 阵 是 技术 主题 和 文献 之 间 概 率 关 系 。 

LDA 主题 模型 形成 了 文献 和 主题 之 间 的 概率 关 
系 , 为 了 进一步 识别 新 兴 技 术 , 需要 将 概率 关系 转化 
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为 0 和 1 的 三 元 关系 ， 即 找到 表达 文献 主旨 的 技术 主 
题 。 为 准确 表达 技术 主题 和 文献 之 间 的 关系 , 笔者 设 
定 一 个 固定 的 阔 值 ,大 于 阔 值 设 为 1 小 于 阔 值 设 为 0， 
即 只 有 达到 这 个 立 值 的 主题 才能 作为 这 篇 文献 的 标 引 
主题 , 技术 主题 和 文献 关系 确定 如 图 3 所 示 : 


ESEIEE ETE IEEE EE 
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图 3 技术 主题 和 文献 关系 
利用 整合 后 的 数据 库 ， 共 识别 243 756 个 关键 词 。 
针对 电动 汽车 论文 和 专利 的 整合 数据 , 利用 LDA 算法 
进行 技术 主题 识别 , 参数 设置 为 800 个 主题 ，o=0.1， 
p-0.01, 进行 1 000 次 迭代 。 
4.3. ”新兴 技术 识别 方法 
在 论文 与 专利 整合 数据 中 , 利用 主题 模型 获取 技 
术 主 题 和 文献 与 技术 主题 强 关系 , 在 此 基础 上 , 需要 
找到 一 批 已 知 的 新 兴 技 术 作 为 参照 , 利用 LDA 识 别 的 
技术 主题 与 已 知 的 新 兴 技 术 进 行 相似 度 计算 ,相似 度 
较 大 则 说 明 此 技术 主题 可 能 为 新 兴 技 术 , 相似 度 较 小 


201711.02057v1 


chinaXiv 


说 明 此 技术 主题 成 为 新 兴 技 术 的 可 能 性 较 小 ,或 者 说 
历史 上 这 种 模式 的 新 兴 技 术 较 少 或 没有 。 因 此 ,新 兴 
技术 识别 模型 就 是 要 找到 一 批 新 兴 技 术 , 并 把 识别 出 
的 技术 主题 与 这 些 新 兴 技 术 进 行 相似 度 计算 。 研 究 分 
析 机 构 Gartner 每 年 都 会 推出 不 少 研究 报告 , 不 过 其 
中 最 受 关注 的 是 新 兴 技 术 成 熟 度 曲 线 (也 称 为 新 兴 技 
术 炒 作 周 期 报告 ) 因此 ,笔者 利用 Hype Cycle for 
Emerging Technologies 中 的 技术 作为 新 兴 技 术 训练 集 ， 
而 后 采用 相似 度 算法 , 计算 识别 出 的 技术 主题 和 
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Gartner 的 新 兴 技 术 数 据 之 间 的 相似 度 , 并 根据 相似 度 
进行 排序 ， 最 终 得 到 一 个 技术 主题 有 序 队 列 ， 由 专家 
选择 判断 。 

识别 新 兴 技 术 主 要 分 为 学 习 和 预测 两 个 阶段 : 学 
习 阶 段 ， 收集 整理 Gartner 的 新 兴 技 术 数 据 ,， 计算 新 兴 
技术 的 技术 特征 ; 预测 阶段 ， 对 技术 主题 利用 技术 主 
题 和 文献 关系 计算 出 技术 特征 ,利用 技术 特征 和 相关 
度 算法 计算 技术 主题 的 相关 度 ,， 并 排序 。 具 体 如 图 4 
所 示 : 
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图 4 新 兴 技 术 识 别 模型 学 习 及 预测 图 


4.4 新 兴 技 术 相 似 度 算法 

新 兴 技 术 识 别 的 核心 是 排序 ,通过 技术 主题 与 
Gartner. 技术 成 熟 度 曲线 中 的 新 兴 技 术 的 相似 程度 进 
行 判 定 ,技术 相似 度 越 大 , 被 选择 的 可 能 性 越 大 ， 则 识 
别 为 新 兴 技 术 的 可 能 性 越 大 。 为 了 计算 技术 主题 和 新 
兴 技 术 的 相似 程度 ,笔者 采用 余弦 相似 度 算法 计算 技 
术 主 题 和 新 兴 技 术 的 相似 度 , 公式 如 下 : 


n 
2 f x Fik (1) 
Sim(T, E;) = -一生 


(X RO Fi) 
k-l k=l 


其 中 , 工 是 技术 主题 , E Gartner 的 新 兴 技 术 , F 
特征 属性 。 在 得 到 技术 主题 和 单个 新 兴 技 术 相 似 
度 后 ， 从 中 找 出 最 相似 的 M 个 新 兴 技 术 ， 累 加 技术 
主题 与 M 个 新 兴 技 术 的 相似 度 并 求 平 均 ， 公 式 如 下 : 

Y sim, E) 
ATS,-E9. Q) 
M 


pn 


新 兴 技 术 的 相似 度 算法 如 下 : 

输入 : 训练 好 的 Gartner 新 兴 技 术 及 特征 向 量 , 技术 主 
题 及 特征 向 量 ,M 

输出 : 技术 主题 , 技术 主题 和 新 兴 技 术 相 似 度 列表 

四 根据 特征 项 集合 重新 描述 训练 科技 术语 及 特征 向 量 ， 
并 构建 KDTree; 

DRE M 个 最 相似 的 新 兴 技 术 ; 

@ 计 算 新 科技 术语 与 M 个 新 兴 技术 的 相似 度 ; 

(DF M. 个 相似 度 加 和 求 平均 ， 并 记录 到 Hash AP, 其 
中 Key 是 技术 术语 , Value 是 技术 相似 度 ; 

(X Hash 表 根 据 Value 从 大 到 小 排序 ， 并 输出 。 

Gartner. 认为 新 兴 技 术 是 一 些 受到 炒作 而 成 为 关注 
焦点 的 技术 , 或 者 是 有 可 能 带 来 重大 影响 的 技术 。 
Gartner. 技术 成 熟 度 曲线 的 绘制 指标 主要 有 参加 会 议 人 
数 [3 相 、 技 术 创 新 的 文献 数量 或 比例 中 、 专 利 统计 数 
JEL, JA Gartner 对 新 兴 技术 的 定义 和 对 新 兴 技 术 绘 制 
的 技术 成 熟 度 曲线 中 可 以 看 出 ， 新兴 技术 应 受到 炒作 或 
者 关注 , 即 需 要 有 研发 机 构 和 研究 人 员 对 此 技术 进行 研 
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究 和 工程 化 (机 构 研发 系数 、 作 者 研发 系数 )。 论 文 发 表 者 将 以 上 指标 称 之 为 内 容 性 特征 。 目 前 , 很 多 学 者 提出 
数量 和 专利 申请 数量 所 达到 的 频 度 (论文 频 度 和 专利 频 。” ”以 趋势 性 指标 "(增长 率 、 相 对 增长 率 、 作 者 占有 率 、 
E, 技术 截止 到 目前 已 经 出 现 的 时 间 ( 年 度 特征 ) 对 技术 ”作者 增长 率 、 机 构 占 有 率 、 机 构 增 长 率 ) 绘 制 Hype Cycle. 
是 否 判定 为 新 兴 技 术 都 有 影响 ,同时 技术 归属 度 、 领 域 。 本 文 结合 趋势 性 指标 和 内 容 性 指标 , 通过 更 多 角度 和 维 
相关 度 等 指标 能 够 反映 技术 与 领域 的 相互 关系 , 因此 笔 。 ” 度 , 识别 新 兴 技术 。 指 标 内 容 如 表 1 所 示 : 


表 1 新 兴 技术 指标 集 
指标 类 型 指标 名 称 指标 内 容 


论文 革 个 技术 主题 在 年 度 论文 中 超过 一 定 阔 值 的 时 候 ， 该 频 度 为 1， 否 则 为 0。 这 个 阔 值 是 变化 的 ， 
股 采用 采集 的 Gartner 新 兴 技术 中 的 最 小 值 ， 本 次 实验 论文 阔 值 是 2。 
i qp 某 个 技术 主题 在 年 度 专利 中 超过 一 定 阔 值 的 时 候 ， 该 频 度 为 1, BN 0. ABLE, 
”一 般 采 用 采集 的 Gartner 新 兴 技 术 中 的 最 小 值 ， 本 次 实验 专利 阔 值 是 1。 
论文 某 个 技术 主题 在 论文 中 出 现 总 年 数 。 
专利 ” 某 个 技术 主题 在 专利 中 出 现 总 年 数 。 
内 容 性 PRE 论文 ” 某 个 技术 主题 在 本 领域 中 出 现 的 频率 与 在 总 的 论文 库 中 出 现 频率 的 比率 。 
指标 1 专利 某 个 技术 主题 在 本 领域 中 出 现 的 频率 与 在 总 的 专利 库 中 出 现 频率 的 比率 。 


论文 革 个 技术 主题 与 领域 的 互信 息 。 
领域 相关 度 
RARE LE 某 个 技术 主题 与 领域 的 互信 息 。 
论文 “论文 机 构 研究 系数 : 论文 数 与 机 构 数量 的 比值 。 
机 和 构 研 发 系数 。。 专利 。 申请 人 研发 系数 : 专利 申请 数 与 申请 人 数量 的 比值 。 
论文 论文 数 与 作者 数量 的 比值 。 
作者 研发 系数 。 专利 专利 数 与 发 明 人 数量 的 比值 。 
e 论文 (累积 到 本 年 的 论文 发 表 量 _ 上 一 年 累 积 发 表 量 )/ 累 积 到 上 一 年 的 论文 发 表 量 
专利 (累积 到 本 年 的 专利 申请 量 - 上 一 年 累积 专利 申请 量 )/ 累 积 到 上 一 年 的 专利 申请 量 


相对 增长 率 X 。 (本 年 的 论文 发 表 量 - 上 一 年 发 表 量 y 上 一 年 的 论文 发 表 量 
专利 (本 年 的 专利 申请 量 - 上 一 年 专利 申请 量 ) 上 一 年 的 专利 申请 量 


论文 ”本 年 作者 数量 /本 年 总 的 作者 数量 


趋势 性 MERTE 专利 ”本 年 发 明 人 数量 /本 年 总 的 发 明 人 数量 
指标 — 论文 (本 年 的 作者 数量 -上 一 年 作者 数量 )/ 上 一 年 作者 数量 
专利 (本 年 的 发 明 人 数量 -上 一 年 发 明 人 数量 /上 一 年 发 明 人 数量 
M 论文 ”本 年 研究 机 构 数 量 /本 年 总 的 研究 机 构 数 量 
Wr 专利 ”本 年 研究 申请 人 数量 /本 年 总 的 申请 人 数量 
i 论文 (本 年 的 研究 机 构 数量 -上 一 年 研究 机 构 数 量 )/ 上 一 年 研究 机 构 数 量 
专利 ”( 本 年 的 申请 人 数量 -上 一 年 申请 人 数量 ) 上 一 年 申请 人 数量 
45 ”新 兴 技 术 选 择 与 标注 兴 技 术 的 关键 文档 , 本 文选 择 LDA 模型 的 文档 -主题 


在 计算 得 到 技术 主题 与 Gartner 新 兴 技术 的 相似 ”矩阵 中 ,与 技术 主题 最 相关 的 前 5 篇 论文 和 前 5 篇 专 
度 以 及 相似 度 排序 后 , 设 定 一 个 辣 值 ,选择 有 限 个 技 。 利 提供 给 专家 。 专 家 经 过 研读 后 ,如果 判定 为 新 兴 
术 主 题 ( 即 待 选 新 兴 技术 ) 交 给 专家 进行 判定 。 术 ， 则 将 此 技术 入 库 ， 否则 不 予 入 库 。 
在 选择 得 到 待 选 新 兴 技 术 主题 后 , 使 用 一 个 词 或 者 
一 个 词组 对 新 兴 技术 名 称 进 行 标注 ,由 于 主题 模型 的 标 OO ”实验 结果 
注 比 较 复杂 , 在 本 模型 中 主要 采用 人 工 标注 的 方式 进行 。 51 论文 与 专利 技术 主题 模型 实验 结果 
进行 技术 主题 标注 后 ,在 交 予 专家 判定 前 , 需要 根据 4.2 节 的 实验 , 笔者 共 获取 1 000 个 主题 , 其 
给 专家 提供 待 选 新 兴 技术 的 支持 信息 ， 即 提供 待 选 新 中 前 20 个 主题 的 部 分 结果 如 2 所 示 。 
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表 2 电动 汽车 主题 模型 部 分 结 
主题 1 主题 2 主题 3 主题 4 
词 权重 词 权重 词 权重 词 权重 
驱动 电源 0.074460682 ”线圈 骨架 0.030627871 ”密封 构件 0.032125206 防 撞 杆 0.101145038 
超声 电机 0.030619346 ”橡胶 圈 0.030627871 FOR 0.026359143 燃料 电池 组 0.026717557 
调整 装置 0.016701461 ”弹性 片 0.022970904 ”充电 组 件 0.022240527 ”排出 0.025763359 
收集 器 0.016005567 ”导电 线 0.016845329 ” 座 椅 主 体 0.019769357 电导 体 0.02480916 
驱动 器 0.016005567 — 车 载 设备 0.016079632 XERE 0.016474465 ”腰带 头 0.016221374 
主题 5 主题 6 主题 7 主题 8 
词 权重 词 权重 词 权重 词 权重 
粉末 冶金 0.032467532 ”保险 杠 0.05849359 众 化 剂 层 0.049905482 充电 插座 0.068493151 
滑动 门 0.027829314 HEW 0.03125 燃料 电池 0.022306238 ”充电 插头 0.0498132 
连接 端 0.019480519 ”前 围 板 0.025641026 ”电解 质 膜 0.020415879 ”点火 开关 0.04109589 
Wa PEA 0.017625232 ”前 端 部 0.018429487 AWP RUZ 0.017013233 {EWE 。 0.02615193 
冷却 箱 0.016697588 ”加 强 件 0.013621795 ”高 分 子 电解 质 0.016824197 电磁 开关 0.02532171 


同时 计算 技术 主题 和 文献 关系 , 设置 闵 值 大 于 
0.0125 以 上 的 标记 为 1, 否则 为 0。 
5.2 ”新 兴 技 术 识别 模型 实验 结果 

为 了 验证 新 兴 技 术 识别 模型 的 有 效 性 ,笔者 收集 
了 Gartner 的 Hype Cycle KI, 根据 图 中 数据 采集 文字 、 
技术 周期 图 、 发 表 时 间 、 位 置 等 信息 (如 图 5 所 示 ), 将 


对 应 的 英文 翻译 成 中 文 , 同时 去 除 部 分 概念 数据 ， 比 
如 Disaster Recovery Service-Level Management( 灾 难 
恢复 服务 水 平 管理 ) 等 ， 共 采集 有 效 可 以 被 用 作 新 兴 

术 学 习 数 据 650 个 。Gartner 新 兴 技 术 指 标 计算 是 根据 
翻译 得 到 的 中 文 新 兴 技 术 术 语 和 年 份 进行 检索 ,检索 
得 到 结果 后 , 再 根据 特征 公式 进行 计算 , 得 到 特征 值 。 
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图 5 Gartner 技术 数据 库存 储 样式 
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根据 技术 主题 模型 中 获取 的 1 000 个 主题 和 每 EIER, 如 表 3 所 示 : 


表 3 相似 度 最 高 的 25 个 技术 主题 表 


编号 技术 主题 关键 词 相似 度 
1 386 充电 设施 ; 充 换 电 服务 ; 标准 体系 ; 商业 模式 ; 电磁 兼容 0.8714 
2 172 燃料 电池 堆 ; 电池 堆 ; 燃料 电池 ; 燃料 电池 系统 ; 阳极 侧 0.8591 
3 194 fish; 蓄电池 组 ; 快速 充电 ; 充电 回路 ; 充电 电流 0.8551 
4 235 直流 电动 机 ; 直流 电机 ; 换 向 器 ; 直流 发 电机 ; 驱动 单元 0.8520 
5 149 充电 电池 ; 电池 充电 ; 充电 模式 ; 充电 器 ; 充电 装置 0.8516 
6 51 太阳 能 电池 ; 染料 敏 化 ; 工作 电极 ; 太阳 电池 ; 光电 转换 效率 0.8486 
7 528 混合 动力 汽车 ; 混合 动力 ; 发 动机 ; 控制 策略 ; 混合 动力 系统 0.8462 
8 501 燃料 电池 ; 燃料 电池 系统 ; 燃料 电池 堆 ; 单 电池 ; 燃料 气体 0.8461 
9 426 质子 交换 膜 ; 膜 电极 ; 催化 层 ; 燃料 电池 ; 聚合 物 电 解 质 0.8434 
10 77 开关 磁 阻 电机 ; 磁 阻 电机 ; 开关 磁 阻 ; 功率 变换 器 ; 调 速 系统 0.8404 
ii 324 控制 系统 ; 无 刷 直流 电机 ; 单片机 ; 直流 电机 ; 实验 结果 0.8397 
12 442 碳纤维 ; 汽车 车 身 ; 主 表 面 ; 空心 管 ; 折 释 部 0.8397 
13 265 充电 桩 ; 充电 机 ; 充电 站 ; 监控 系统 ; 充电 设备 0.8396 
14 690 控制 模块 ; 无 线 接收 模块 ; 显示 屏 ; 无 线 发 射 模块 ; 驾驶 员 0.8377 
15 31 锂 离 子 电 池 ; 负极 片 ; 正极 片 ; 电池 芯 ; 正极 集 流 体 0.8368 
16 412 动力 总 成 ; 发 动机 ; 悬 置 系统 ; 发 动机 悬 置 ; 悬 置 支 架 0.8348 
17 64 驱动 器 ; 转向 电机 ; 智能 控制 器 ; 测试 电路 ; 电动 机 0.8319 
18 498 电动 助力 转向 系统 ; 控制 策略 ; 操纵 稳定 性 ; 横 摆 角速度 ; 仿真 结 0.8294 
19 780 储 能 蓄电池 ; 智能 充 放电 ; 电池 组 件 ; 锂 离子 电池 ; 太阳 能 0.8284 
20 193 再 生 制 动 ; 能 量 回收 ; 制 动 能 量 ; 制 动 能 量 回 收 ; 制 动 系统 0.8235 
21 208 EOLIE tar, 驱动 电机 ; 整 车 控制 器 ; 控制 系统 ; 动力 电池 组 0.8216 
22 195 电池 单元 ; 电池 系统 ; 电池 管理 系统 ; 充电 状态 ; 电池 模块 0.8018 
23 453 永 磁 同步 电机 ; 同步 磁 阻 电机 ; 异步 电机 ; 悬浮 力 ; 无 轴承 0.7934 
24 168 40: 复合 材料 ; 二 氧化 钛 ; 水 溶液 ; 混合 溶液 0.7700 
25 266 无 线 充电 ; 接收 器 ; 发 射线 圈 ; 接收 线圈 ; 无 线 充电 器 0.7286 


5.3. ”新 兴 技 术 标 注 与 信息 支持 实验 结果 
在 获取 待 选 新 兴 技 术 后 , 标注 待 选 新 兴 技术 和 提 
供 相 关 论 文 和 专利 ,根据 阅读 主题 中 的 关键 词 和 部 分 


膜 "”、“ 开 关 磁 阻 电 机 ”、“ 控 制 系 统 ”、“ 碳 纤维 *"、“ 充 
BR”, TREDI”, MATTEW”, “RNE 
置 "、“ 智 能 控制 、“ 电 动 助 力 转 向 ”、“ 智 能 充 放电 ”、 


最 相似 文献 ,确定 技术 主题 的 标注 信息 ,具体 信息 如 
表 4 所 示 。 

可 见 , 在 电动 汽车 论文 和 专利 数据 中 , 选 出 待 
选 新 兴 技 术 分 别 是 “ 充 换 电 服务 ” ATE MET 
“快速 充电 ”、“ 直 流 电动 机 ”、“ 充 电 电池 ”、“ 太 阳 能 
电池 ”、“ 混 合 动 力 汽车 *"、“ 燃 料 电 池 ”、“ 质 子 交换 


有 一 现代 图 书 情报 技术 


“ 制 动 能 量 回收 ?>“ 整 车 控制 部”“ 电 池 管 理 系统 ”、 
“ 永 磁 同步 电机 ”“ 石 墨 炳 ”、“ 无 线 充 电 ?等 25 个 
技术 。 

然后 将 电动 汽车 LDA 模型 的 文档 -主题 矩阵 中 与 
技术 主题 最 相关 的 前 5 篇 论文 和 前 5 篇 专利 提供 给 
家 ,限于 篇 幅 , 仅 提 供 两 个 主题 , 如 表 5 所 示 。 
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表 4 待 选 新 兴 技 术 主 题 标 注 表 
编号 技术 主题 关键 词 标注 信息 
1 386 充电 设施 ; 充 换 电 服务 ; 标准 体系 ; 商业 模式 ; 电磁 兼容 充 换 电 服 务 
2 172 燃料 电池 堆 ; 电池 堆 ; 燃料 电池 ; 燃料 电池 系统 ; 阳极 侧 燃料 电池 堆 
3 194 Bib; FEW, 快速 充电 ; 充电 回路 ; 充电 电流 快速 充电 
4 235 直流 电动 机 ; 直流 电机 ; 换 向 器 ; 直流 发 电机 ; 驱动 单元 直流 电动 机 
5 149 充电 电池 ; 电池 充电 ; 充电 模式 ; AEA, 充电 装置 充电 电池 
6 51 太阳 能 电池 ; 染料 敏 化 ; 工作 电极 ; 太阳 电池 ; 光电 转换 效率 太阳 能 电池 
7 528 混合 动力 汽车 ; 混合 动力 ; 发 动机 ; 控制 策略 ; 混合 动力 系统 混合 动力 汽车 
8 501 燃料 电池 ; 燃料 电池 系统 ; 燃料 电池 堆 ; 单 电 池 ; 燃料 气体 燃料 电池 
9 426 质子 交换 膜 ; 膜 电 极 ; 催化 层 ; 燃料 电池 ; 聚合 物 电解 质 质子 交换 膜 
10 77 开关 磁 阻 电机 ; 磁 阻 电机 ; 开关 磁 阻 ; 功率 变换 器 ; 调 速 系统 开关 磁 阻 电机 
11 324 控制 系统 ; 无 刷 直 流 电机 ; 单片机 ; 直流 电机 ; 实验 结果 控制 系统 
12 442 碳纤维 ; 汽车 车 身 ; 主 表 面 ; 空心 管 ; MÆR 碳纤维 
13 265 充电 桩 ; 充电 机 ; 充电 站 ; 监控 系统 ; 充电 设备 充电 监控 
14 690 控制 模块 ; 无 线 接收 模块 ; 显示 屏 ; 无 线 发 射 模 块 ; 驾驶 员 无 线 移动 
15 31 锂 离子 电池 ; 负极 片 ; 正极 片 ; 电池 芯 ; 正极 集 流体 锂 离子 电池 
16 412 动力 总 成 ; 发 动机 ; 悬 置 系统 ; 发 动机 悬 置 ; 悬 置 支架 发 动机 悬 置 
17 64 驱动 器 ; 转向 电机 ; 智能 控制 器 ; 测试 电路 ; 电动 机 智能 控制 
18 498 电动 助力 转向 系统 ; 控制 策略 ; 操纵 稳定 性 ; 横 摆 角速度 ; 仿真 结果 电动 助力 转向 
19 780 储 能 蓄电池 ; 智能 充 放电 ; 电池 组 件 ; 锂 离子 电池 ; 太阳 能 智能 充 放 电 
20 193 再 生 制 动 ; 能 量 回收 ; 制 动 能 量 ; 制 动 能 量 回收 ; 制 动 系统 制 动 能 量 回 收 
21 208 电机 控制 器 ; 驱动 电机 ; 整 车 控制 器 ; 控制 系统 ; 动力 电池 组 整 车 控制 器 
22 195 电池 单元 ; 电池 系统 ; 电池 管理 系统 ; 充电 状态 ; 电池 模块 电池 管理 系统 
23 453 永 磁 同步 电机 ; 同步 磁 阻 电机 ; 异步 电机 ; 悬浮 力 ; 无 轴承 永 磁 同步 电机 
24 168 石墨 烯 ; 复合 材料 ; 二 氧化 钛 ; 水 溶液 ; 混合 溶液 石墨 烯 
25 266 无 线 充电 ; 接收 器 ; 发 射线 圈 ; 接收 线圈 ; 无 线 充 电器 无 线 充电 
表 5 提供 给 专家 的 资源 列表 ( 样 例 ) 
二 
2s deis 相关 论文 相关 专利 
(1) 电动 汽车 充 换 电 服务 网 络 运 营 管理 系统 的 研究 与 ”(1) 申请 号 : 201210042946.5 
设计 . 张 海 龙 , 冯 森 , 李 建 祥 .《 陕 西 电力 》. 2011 基于 能 量 等 效 的 电动 汽车 充电 设施 负荷 预测 系统 及 
(2) 基于 物 联 网 的 电动 汽车 智能 充 换 电 服务 网 络 电 池 ”方法 
管理 . BE €, BEH, KEE. 《电力 系统 自动 化 》. Q) 申请 号 : 201310034395.2 
2012 电动 汽车 充 换 电 服务 网 络 发 展演 算 仿真 系统 
í — 充 换 (3) 电动 汽车 智能 充 换 电 服务 网 络 建设 与 运营 . Vife G) 申请 号 : 201110122776.7 
电 服 务 ” 国 .《 电 力 需 求 侧 管 理 》. 2011 燃料 供应 系统 
(4) 基于 复杂 网 络 的 电动 汽车 智能 充 换 电 服务 网 络 评 (4) 申请 号 : 201210042247.0 
佑 方法 . 薛 飞 ， 雷 宪章 , 张 时 购 .《 电 网 技术 》.2012 电动 汽车 充电 设施 负荷 预测 系统 及 预测 方法 
(5)“ 电 动 汽 车 -车 联网 ”商业 模式 研究 . 叶 瑞 克 ,， 陈 秀 — (5) 申请 号 : 201310682498.X 
db, 朱 方 思 宇 .《 北 京 理 工大 学 学 报 : 社会 科学 版 》. ”基于 生态 模拟 的 电动 汽车 充 换 电 服 务 网 络 仿真 系统 及 
2012 方法 
(1) 高 功率 薄型 金属 双 极 板 PEM 燃料 电池 堆 研 究 . EK, (1) 申请 号 : 201010107129.4 
王涛 , 张 伟 .《 Chinese Journal of Power Sources》. 2009 燃料 电池 系统 及 判定 燃料 电池 系统 内 的 阳极 压力 传 感 
Q) 可 测 正 负 压 的 燃料 电池 单 片 电压 检测 系统 设计 .器 是 否 正常 运行 的 方法 
邓 坚 , EI, 邓超 . 《武汉 理工 大 学 学 报 : 信息 与 管理 (2) 申请 号 : 201110176379.8 
工程 版 》 无 相对 湿度 感 测 设备 反馈 的 堆 阴极 入 口 相对 湿度 控制 
j jn 燃料 (3) 5 kW 质子 交换 膜 燃 料 电池 堆 之 气体 与 水 管理 系统 . (3) 申请 号 : 200710044739.2 
电池 堆 。 马 小 康 , 郑 为 阳 , 方 富民 .《 武 汉 大 学 学 报 : 工学 版 》. 一 种 控制 燃料 电池 空气 和 氧气 运行 压力 稳定 的 方法 


2012 


(4) 加 压 燃料 电池 发 动机 开发 赵 景 辉 , 陈 沛 ， 


海 汽车 》. 2009 


(5) Ener! 向 现代 各 


产业 》. 2010 


ET. 


电动 汽车 供应 锂电 池 堆 .《 新 材料 


(4) 申请 号 : 201380057771.8 
燃料 电池 堆 和 用 于 组 装 该 燃料 电池 堆 的 方法 
(5) 申请 号 : 201380065084.0 


吴 兵 《上 


燃料 电池 堆 及 使 用 


了 该 燃料 电池 堆 的 载荷 分 担 方法 
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本 文 提出 一 种 基于 论文 与 专利 整合 的 新 兴 技 术 发 
现 模 型 的 研究 方法 , 构建 基于 论文 与 专利 整合 分 析 与 
挖掘 的 知识 挖掘 模型 ， 该 模型 融合 内 容 性 指标 和 趋势 
性 指标 , 采用 LDA 和 新 兴 技 术 相 似 度 进行 新 兴 技术 识 
别 , 并 通过 电动 汽车 的 论文 数据 和 专利 数据 进行 实例 
验证 。 实 验 结果 表明 这 种 方法 区 别 于 以 往 的 新 兴 技 术 
识别 方法 , 减少 了 专家 的 主观 性 和 待 分 析 新 兴 技 术 的 
数量 , 提高 了 专家 的 工作 效率 。 

但 本 文 没有 进行 专家 打分 实验 , 模型 分 析 结 果 未 
与 人 工 结果 进行 对 比 , 可 能 存在 误差 。 下 一 步 工 作 将 
进行 专家 打分 实验 , 根据 不 一 致 数据 进一步 修改 模型 
和 方法 ， 同 时 考虑 到 不 同 的 特征 对 识别 结果 的 影响 ， 
进行 特征 选择 ， 以 优化 新 兴 技 术 识 别 模型 的 识别 的 准 
确 性 。 
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Discover Emerging Technologies with LDA Model 


RenZhijun"? Qiao Xiaodong’ Zhang Jiangtao? 
! (Institute of Scientific & Technical Information of China, Beijing 100038, China) 
“The China Patent Information Center, The State Intellectual Property Office, Beijing 100088, China) 


Abstract: [Objective] To identify emerging technologies from academic papers and patents. [Methods] We adopted 
the Latent Dirichlet Allocation (LDA) model to find technical topics and used the similarity theory to retrieve emerging 
technologies from the electric car data. [Results] The proposed method was more efficient than exisiting ones. It 
reduced the subjectivity of the experts' evaluation and the amount of data to be analyzed. [Limitations] We did not 
include the expert scoring experiment in this study, thus, we could not compare the new model's performance with 
those involving human judgements. [Conclusions] The proposed model could identify emerging technologies 
effectively and then reduce the document reading load of the experts. 


Keywords: Emerging technology Paper Patent Electric car Technology similarity 
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